Econometría II: Logit Probit

Departamento de Economía

Carlos A. Yanes G.

2023-11-12

Paquetes con que se trabaja la sesión

Los paquetes que se van a utilizar en la sesión de hoy son:

Note

Para trabajar en esta ocasión vamos a usar los paquetes de :

library(pacman)
p_load(tidyverse, summarytools, sjPlot)

Preambulo

Recordemos

  • Hipótesis nula (H0): \(\widehat{\beta} = \beta\)

  • Hipótesis alternativa (H1): \(\widehat{\beta} \neq \beta\)

Hay cuatro posibles resultados de nuestra prueba:

  1. No rechazamos la hipótesis nula y la nula es cierta.
  2. Rechazamos la hipótesis nula y la nula es falsa.
  3. Rechazamos la hipótesis nula, pero la nula es realmente cierta (error de tipo I).
  4. No rechazamos la hipótesis nula, pero la nula es realmente falsa (error de tipo II).

Recordemos

Errores

No rechazamos la hipótesis nula y la nula es cierta.

  • El acusado fue condenado, ¡pero no cometió el delito!
  • Error tipo I (también conocido como falsos positivos)

No rechazamos la hipótesis nula, pero en realidad la nula es falsa.

  • El acusado fue absuelto, ¡pero cometió el delito!
  • Error de tipo II (también conocido como falso negativo)

Introducción modelos logísticos

Variables dependientes dicotómicas

Definición de Variables (recordeis)

  • Discretas (con rango finito de valores):
    • Dicotómicas
    • Politómicas
  • Continuas:
    • Un rango (teóricamente) infinito de valores.
  • NOIR: Nominal, Ordinal, Intervalos, Razón

Variables dependientes dicotómicas

Definición de Variables (recordeis)

Tipo Características Propiedad de números Ejemplo
Nominal Uso de números en lugar de palabras Identidad Nacionalidad
Ordinal Números se usan para ordenar series ranking Nivel educativo
Intervalos Intervalos iguales entre números igualdad Temperatura
Razón Cero real aditividad Distancia

Clasificación

  • Nominal: Números empleados como etiquetas (ej. sexo, raza)
  • Ordinales: Distintas categorías puede sen ordenados en serie. Posición, no distancia. P.e.(cargos en una empresa)
  • Intervalares: Escalas de unidades iguales. Diferencia entre dos números consecutivos que refleja un diferencia. P.e. (Horas del día)
  • Razón: caracterizados por la presencia de un cero absoluto. (ej. frecuencias de eventos)

Clasificación

Variable (X) Variable Dependiente Categórica Variable Dependiente Continua
Categórica Análisis de tabla de Contigencia, Ji-2 Análisis de Varianza ANOVA, Pruebas T
Continua Regresión Logística Correlación / Regresión Lineal

Modelo Logistico

Titanic

Code
load("dattitan.Rdata")
base_t <- tt %>% select(survived,sex,age )  
print(dfSummary(base_t, headings = FALSE), method = "render") #Summarytools
No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
1 survived [factor]
1. No sobrevive
2. Sobrevive
619 ( 59.2% )
427 ( 40.8% )
1046 (100.0%) 0 (0.0%)
2 sex [factor]
1. Hombre
2. Mujer
658 ( 62.9% )
388 ( 37.1% )
1046 (100.0%) 0 (0.0%)
3 age [numeric]
Mean (sd) : 29.9 (14.4)
min ≤ med ≤ max:
0.2 ≤ 28 ≤ 80
IQR (CV) : 18 (0.5)
98 distinct values 1046 (100.0%) 0 (0.0%)

Generated by summarytools 1.0.1 (R version 4.3.2)
2023-11-12

Titanic

Code
graph01 <-ggplot(tt, 
     aes(survived, fill=survived)) + 
  geom_bar() + 
  geom_text(
     aes(label = scales::percent((..count..)/sum(..count..))),
     stat='count',size=10, vjust = 3) +
  labs(title = "Sobrevivientes", x = "Si/no", y = "Porcentaje (%)") +
  theme(plot.title = element_text(size = 14, face = "bold"),
        axis.title = element_text(size = 12))+
  theme(legend.position="none", 
        text = element_text(size = 30),
        axis.title=element_blank())
graph01

Análisis

  • En el barco de “El Titanic” habían mas Hombres que Mujeres.
Code
(ggplot(tt, aes(sex, fill=sex))
 + geom_bar()
 + geom_text(
     aes(label = scales::percent((..count..)/sum(..count..))),
     stat='count',
      size=10,
    vjust = 3)+
  labs(title = "Genero al Nacer", x = "", y = "")+ 
  theme(plot.title = element_text(size = 14, face = "bold"),
        axis.title = element_text(size = 12),
        axis.text.y = element_text(angle = 90, hjust = 1))+
  theme(legend.position="none", text = element_text(size = 30),axis.title=element_blank())
)

Análisis

  • Qué ocurre si combinamos supervivencia con Hombres y Mujeres?.
Code
ggplot(data = tt) +
  geom_mosaic(aes(x = product(survived,sex), fill=survived)) + 
  labs(title='Porcentajes de Supervivencia')

Resultado

  • El 75% de las mujeres sobrevive, mientras que el 25% no lo hace.

Elephant

Fué el género un determinante de la supervivencia?

Con regresión

Code
str(tt$sex)
#>  Factor w/ 2 levels "Hombre","Mujer": 2 1 2 1 2 1 2 1 2 1 ...
Code
reg_tit=lm(survived ~ sex, data= tt)
#> Warning in model.response(mf, "numeric"): using type = "numeric" with a factor
#> response will be ignored
#> Warning in Ops.factor(y, z$residuals): '-' not meaningful for factors

Advertencia de R. Nos dice que nuestra variable dependiente será tratada como continua -cuando en realidad es un factor (cualitativo)!!, o no?-

MCO con Variables Cualitativas

tt <- tt %>% mutate(survived_n=recode(survived,
"No sobrevive"=0, "Sobrevive"=1))
str(tt$survived_n)
reg_tit=lm(survived_n ~ sex, data=tt)
summary(reg_tit)
  Modelo MPL
Predictores β std. Error
(Intercept) 0.205 *** 0.016
sex [Mujer] 0.547 *** 0.027
Observations 1046
R2 / R2 adjusted 0.289 / 0.289
* p<0.05   ** p<0.01   *** p<0.001
  • El valor del intercepto \(\widehat{\beta}_0\)=0.205, es el valor “predicho” para la categoría de referencia en genero conocido como Hombres.
  • El \(\widehat{\beta}_1\) del género/sex (mujer) =0.547 sumado al intercepto nos brinda el porcentaje de supervivencia de Mujeres

Funciona por lo pronto

Límitaciones MCO

Límitaciones MCO

Límitaciones MCO

  • Veamos SI hubieran sobrevivido los menores de 20 años y muerto todos los mayores de 40 años
  • El código para hacerlo es
tt$survived_n2 <-tt$survived_n
tt$survived_n2[tt$age>40]<-0
tt$survived_n2[tt$age<20]<-1

Límitaciones MCO

Tenemos problemas

Y entonces

  • Eventuales predicciones fuera del rango de probabilidades posibles

Por ende

La regresión logística ofrece una solución a los problemas del rango de predicciones y de ajuste a los datos del modelo de probabilidad lineal 😬

Se logra mediante una transformación de lo(s) coeficientes beta’(s) a coeficientes LOGIT

Regresión Logistica

Regresión Logistica

Definamos

Definición de modelo Logit

  • Es el logaritmo de los (odds)
  • … qué rayos son los odds?
  • Una razón de probabilidades
  • Para llegar hasta regresión logística, hay que pasar por los odds (chances), y los odds-ratio (proporción de chances)

Definición de modelo Logit

Odds (chances)

probabilidad de que algo ocurra dividido por la probabilidad de que no ocurra

\[Odds=\frac{p}{1-p}\]

Ejemplo
Ej. con lo del Titanic: 427 sobrevivientes (41%), 619 muertos (59%)

\[Odds_{sobrevivir}=\frac{427}{619} \Rightarrow \frac{0.41}{0.59}=0.69\]

Es decir, las chances de sobrevivir es de 0.69

Definición de modelo Logit

Odds

  • Odds de 1 significan chances iguales (cero relación), menores a 1 son relaciones negativas y mayores a uno (1) son positivas
Propiedad simétrica
Un \(Odd=4\), es una asociación positiva proporcional a la asociación negativa de \(Odd=1/4=0.25\)

Odds titanics

Code
table(tt$survived,tt$sex)
#>               
#>                Hombre Mujer
#>   No sobrevive    523    96
#>   Sobrevive       135   292
Code
round(prop.table(table(tt$survived,tt$sex),2),2)
#>               
#>                Hombre Mujer
#>   No sobrevive   0.79  0.25
#>   Sobrevive      0.21  0.75
  • El 21% de los hombres sobrevive mientras el 79% no sobrevive.
  • \[Odds_{hombres}=\frac{0.21}{0.79}=0.27\]
  • La probabilidad de sobrevivencia en los hombres es 0.27 veces a la no sobrevivencia o en otros términos: Hay 27 hombres que sobreviven por cada 100 hombres que no sobreviven

Odds titanics

Code
table(tt$survived,tt$sex)
#>               
#>                Hombre Mujer
#>   No sobrevive    523    96
#>   Sobrevive       135   292
Code
round(prop.table(table(tt$survived,tt$sex),2),2)
#>               
#>                Hombre Mujer
#>   No sobrevive   0.79  0.25
#>   Sobrevive      0.21  0.75
  • El 75% de las mujeres sobrevive mientras el 25% no sobrevive.
  • \[Odds_{mujeres}=\frac{0.75}{0.25}=3\]
  • La probabilidad de sobrevivencia en las mujeres es 3 veces a la no sobrevivencia o en otros términos Hay 300 mujeres que sobreviven por cada 100 mujeres que no sobreviven

Odds ratio (OR)

Los odds-ratio (o razón de chances) permiten reflejar la asociación entre las chances de dos variables dicotómicas ¿Tienen las mujeres más chances de sobrevivir que los hombres?

Code
sjt.xtab(tt$survived, tt$sex,
        show.col.prc=TRUE,
        show.summary=FALSE
)
survived sex Total
Hombre Mujer
No sobrevive 523
79.5 %
96
24.7 %
619
59.2 %
Sobrevive 135
20.5 %
292
75.3 %
427
40.8 %
Total 658
100 %
388
100 %
1046
100 %

Odds ratio (OR)

¿Cuantas más chances de sobrevivir tienen las mujeres respecto de los hombres?

  • \[OR=\frac{p_{m}/(1-p_{m})}{p_{h}/(1-p_{h})}=\frac{0.753/(1-0.753)}{0.205/(1-0.205)}=\frac{3.032}{0.257}=11.78\]
  • OR supervivencia mujeres / OR supervivencia hombres
  • Las chances de sobrevivir de las mujeres son 11.78 veces más que las de los hombres.

El Odds-Ratio (OR) nos permiten expresar en un número la relación entre dos variables categóricas que nos interesan

Por lo tanto, es una versión del \(\beta\) para dependientes categóricas

Pero … el OR tiene algunas limitaciones que requieren una transformación adicional

Gracias por su atención!!

Referencias

Heiss, Florian, Stephan Hetzenecker, and Maximilian Osterhaus. 2022. “Nonparametric Estimation of the Random Coefficients Model: An Elastic Net Approach.” Journal of Econometrics 229 (2): 299–321.
Stock, James H, and Mark W Watson. 2015. “Introduction to Econometrics (3rd Updated Edition).” Age (X3) 3 (0.22).